Laboratory 1

Authors:
- Roberto Pérez 
- Arturo Bringas
- Edgar Bazo
- Mariana Lugo

Imports

Python libraries

Acillary modules

Loading data

Data downloaded from -> https://datos.cdmx.gob.mx/explore/dataset/consumo-agua/export/

Exploratory Data Analysis (EDA)

Data profiling

¿Cuántas variables tenemos?

¿Cuántas observaciones tenemos?

¿Cuántas observaciones únicas tenemos por variable?

¿Cuántas variables numéricas tenemos?

Tenemos 8 variables numéricas

¿Cuántas variables de fecha tenemos?

¿Cuántas variables categóricas tenemos?

¿Cuántas variables de texto tenemos?

Generea el profiling de cada variable

Numeric data profiling

Función para perfil de datos numérico

Categoric data profiling

Profiling: Variables categóricas

Additional data profiling

¿Qué conocemos ahora de este set de datos por variable?

  1. ¿Cuántas alcadías tienes?
    • Hay un total de 16 alcaldías
  1. ¿Cuántos nomgeo tienes?
    • Hay un total de 17 nomgeo
  1. ¿Identificas algún error?
    • Hay una categoría con un error ortográfico: Existen 2140 observaciones en la columna nomgeo que dice: Talpan y 1064 observaciones que dicen: Tlalpan

Transformar el nombre de las columnas a formato estándar: minúsculas, sin espacios en blanco -cambiar por guiónes bajos-, sin signos de puntuación

Transformación de variables geoespaciales

Geospatial data profiling

Corrección de observaciones seleccionadas

Review Changes

¿Cuántas variables tenemos?

¿Cuántas observaciones tenemos?

¿Cuántas observaciones únicas tenemos por variable?

¿Cuántas variables numéricas tenemos?

¿Cuántas variables de fecha tenemos?

¿Cuántas variables categóricas tenemos?

¿Cuántas variables de texto tenemos?

Genera el profiling de cada variable

Data Profiling con Pandas-Profiling

Graphic Exploratory Data Analysis (GEDA)

Análisis Univariado

Variables Categóricas

Barplots

La función que diseñamos para crear gráficas de barras está pensada para que el usuario especifique la variable que desea visualizar.

Varibles Númericas

Se definen las listas de las variables a explorar:

Histogramas

La función que diseñamos para crear histogramas está pensada para que el usuario especifique la variable que desea visualizar.

A partir de la exploración de los datos numéricos por medio de histogramas, se notó la presencia de muchos datos atípicos.

Distribución del consumo de agua por índice de desarrollo.

Se muestran los histogramas del consumo (variables numéricas) por cada categoría del índice de desarrollo(indice_des).

Con el objetivo de tener una mejor observación del comportamiento de la distribución del consumo (totales y promedios), se transformaron las variables en escala logarítmica.

Sin embargo, de acuerdo con el data profiling en el EDA, se observó que para todos los consumos (totales y promedio), el valor top 1 es cero. Por lo tanto, la distribuciones logarítmicas no mostrarán estos valores.

Con base en lo anterior, y dado que la granularidad de los datos es a nivel manzana, ¿Existen muchas manzanas sin consumo de agua? ¿Es correcto lo anterior o es un error? Contestaremos la pregunta más adelante.

La función que diseñamos para crear histogramas está pensada para que el usuario especifique la variable que desea visualizar.

Boxplots

Los boxplots reafirman que para todas las variables numéricas existen outliers, incluso por cada categoría del índice desarrollo.

La función que diseñamos para crear gráficas de baja y brazos está pensada para que el usuario especifique la variable que desea visualizar.

Scatterplots

La función que diseñamos para crear scatterplots está pensada para que el usuario especifique las 2 variables que desea visualizar.

Rugplot

La función que diseñamos para crear gráficas de tapete está pensada para que el usuario especifique la variable que desea visualizar.

Density Estimate

La función que diseñamos para crear gráficas de densidad está pensada para que el usuario especifique la variable que desea visualizar.

QQ-Plot

La función que diseñamos para crear gráficas qq está pensada para que el usuario especifique la variable que desea visualizar.

Matriz de Correlación

Análisis Multivariado

Distribución del consumo de agua por categoría del ínidice de desarrollo en cada alcaldía.

Con el mapa de calor por alcaldía podemos ver que sí hay ubicaciones específicas con una tendencia clara a ser clasificadas con un indice_des particular (e.g. si el registro es de Azcapotzalco, tenderá a ser clasificado como "bajo"). (el mapa de calor muestra la proporción de conteos de cada clasificación por alcaldía)

Histogramas de distribución del consumo por índice de desarrollo humano y variables categóricas.

La función que diseñamos para crear este grupo de histogramas está pensada para que el usuario especifique la variable de consumo que desea visualizar.

Boxplot del consumo por alcaldía:

La función que diseñamos para crear esta visualización de histogramas está pensada para que el usuario especifique la variable de consumo que desea visualizar.

Distribución del consumo de agua por categoría del ínidice de desarrollo por bimestre.

La función que diseñamos para crear esta visualización de histogramas está pensada para que el usuario especifique la variable de consumo que desea visualizar.

Distribución del consumo de agua por categoría del ínidice de desarrollo por colonia.

Se enlistan las colonias top 15 con mayor número de observaciones:

La función que diseñamos para crear esta visualización de histogramas está pensada para que el usuario especifique la variable de consumo que desea visualizar.

Distribución espacial de la variable de respuesta indice_des

Consistencia de la clasificación de la variable colonia con el indice_des.

Lo que nos interesa averiguar con este analisis es si las distintas colonias están clasificadas con una sola etiqueta de índice de desarrollo (e.g. la colonia "Navidad" siempre es clasificada como "popular")

Con esta gráfica nos damos cuenta de que no hay mucha consistencia en la clasificación. Solo el 21% de las las colonias fueron consistentemente clasificadas con una sola etiqueta de la variable indice_des.

¿Qué porcentaje del consumo es para doméstico, no doméstico y mixto?

¿Cómo se ve el consumo total por alcaldía?

Conclusiones

Planteamiento de modelo de predicción

Con base en el el análisis realizado, estamos considerando las siguientes variables para la formulación de nuestro modelo de predección: